Guía del usuario de NumPy: La brecha de rendimiento: ¿Por qué extender NumPy?

Aunque NumPy está construido sobre C, ciertos algoritmos intensivos en cálculo alcanzan una pared de vectorización. Esto ocurre cuando la latencia inherente de la naturaleza dinámica de Python supera los beneficios de la abstracción de alto nivel.

1. El impuesto del intérprete y el empaquetado

Cada iteración en un bucle estándar de Python implica comprobación dinámica de tipos y contaje de referencias. Incluso al usar escalares de NumPy, el "empaquetado" de datos brutos de C en objetos de Python crea un cuello de botella enorme para funciones como $\text{logit}(p) = \log(p/(1-p))$. Manejar casos límite en C es mucho más rápido:

>>> logit(0) -> -inf
>>> logit(1) -> inf
>>> logit(2) -> nan
>>> logit(-2) -> nan

2. Aumento de tamaño de matrices intermedias

Las expresiones puras de NumPy crean búferes de memoria temporales para cada operación secundaria. Ampliar mediante la API de C permite Fusión de kernels, donde la transformación logit se calcula en un solo paso sin sobrecarga adicional de memoria.

3. Dependencias espaciales

Operaciones que involucran patrones de acceso a vecinos, como el stencil 2D:

$$B(I, J) = A(I, J) + (A(I-1, J) + A(I+1, J) + A(I, J-1) + A(I, J+1)) \cdot 0.5D0 + (A(I-1, J-1) + A(I-1, J+1) + A(I+1, J-1) + A(I+1, J+1)) \cdot 0.25D0$$

son difíciles de expresar de forma eficiente mediante rebanadas sin copias redundantes de memoria. Las extensiones en C permiten el uso de aritmética de punteros directa y alineada con la caché.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

What is the primary cause of the 'Interpreter Tax' in Python loops?

Fixed memory allocation for arrays.

Dynamic type-checking and object boxing per iteration.

Lack of support for floating-point math.

Automatic garbage collection of global variables.

QUESTION 2

How does 'Kernel Fusion' improve performance in C-extensions?

By increasing the number of CPU cores used.

By combining multiple operations into a single pass over memory.

By converting all data into 8-bit integers.

By bypassing the C-API entirely.

QUESTION 3

Why are stencil operations problematic for pure NumPy vectorization?

NumPy does not support 2D arrays.

They require redundant memory copies when expressed via slicing.

They cannot be computed using floating-point numbers.

The logit function is required for all stencils.

QUESTION 4

What happens when a computation hits the 'Vectorization Wall'?

The computer runs out of disk space.

Context-switching overhead outweighs the benefits of high-level vectorization.

The GPU takes over the calculation automatically.

NumPy raises a VectorizationError.

QUESTION 5

Handling logit domain errors (like logit(2)) is faster in C because:

Python doesn't know what 'nan' is.

It can be handled at the hardware level by the FPU/SIMD units.

C automatically ignores all errors.

The C-API converts all 'nan' values to zero.